Google Cloud Data Engineer

#Google_Cloud_認定試験

Professional Data Engineer 認定資格 | Google Cloud

$200, 二時間

取得したいが、、使いみちないかな...

Professional Data Engineer試験対策マニュアル。出題傾向・勉強方法 - G-gen Tech Blog

GCP Google Cloud認定試験 Professional Data Engineer 模擬問題集クラウド認定試験模擬問題集シリーズ

模擬試験を受けて、何が問われてるのかを把握するが,,,仕事にできるイメージわかない...

jsonデータで、スキーマが時々変わる場合の対応

BigQueryで schemeのautodetection

Hadoopからの移行 Dataproc

データの永続化は、cloud storage. コネクタがある

DataProcはジョブに専念

Bigqueryで、IDの重複がある場合に、どういうクエリ?

row_number partition by idとしておいて、whereで row_num=1

ストリームデータ処理グローバルなデータ流入、遅延データの処理

セッション windowの使い方、最小ギャップ時間、ツールの選定

大量のIOTデバイスからのデータ処理

クイックスタート: cbt CLI を使用してインスタンスを作成し、データを書き込む | Cloud Bigtable ドキュメント | Google Cloud

timestampをつけてメッセージの順序に基づいてクエリ

モニタリングエージェント。protobufメッセージの使い方?

pub/subに流して dataflow -> bigqueryでSQL

CSVファイルとapache spark?

sparkからの変換なので、dataproc? ->

Spanner vs BigTable

Cloud composer, BigQueryへのoperation

Parquet形式, DAGのタスク?

Dataflowのwindowの期間戦略?

固定、ギャップ、スライディング

Dataflowでのストリームデータの迅速？処理

PCollection Apache Beam のプログラミングモデル | Cloud Dataflow | Google Cloud

Dataproc, 大量データ、ストレージ費用

cloud storage vs persitent disk

水平スケール、選択ツール

Cloud Spanner, 水平方向にスケール、セカンダリインデックス.

GCPUGまとめ「Cloud Spannerでセカンダリインデックスを使うときの勘所」 | BLOG - DeNA Engineering

SQL文？にINTERLEAVE

Cloud Spanner でインターリーブテーブルを高速に取得する | by Yuki Furuyama | google-cloud-jp | Medium

あるテーブルのレコードの物理的な配置を別のテーブルのレコードの配下に置ける仕組み

Bigtableの行キー設計

<sensorid>#<timestamp> で行キーを作成?, 定番？

Natural Language APIの分析項目

エンティティ分析, 固有名詞がくる

エンティティ分析 | Cloud Natural Language API | Google Cloud

Cloud speech-to-Text API

短い音声(1分以内)ファイルは、同期モード。すぐに結果が得られる？

Cloud Vision APIの機能

位置情報を渡して、ランドマーク情報を得る

MLops エラー処理　AI Platform Prediction(Vertext AI?)

Jobsオブジェクト

モデルとジョブの管理 | AI Platform Training | Google Cloud

Operationオブジェクト

RMSE 平均二乗誤差

Training Neural Networks: Best Practices | Machine Learning Crash Course | Google Developers

training, testのフローを復習する

Google Cloud Pub/Subでの重複送信

messageIDが同一になる可能性がある場合、

PubsubMessage | Cloud Pub/Sub Documentation | Google Cloud

orderingKeyというものがある。これを使う、あとで理解する

データの増大にDatabase をどうスケールさせるか

シャーディング?...違う、sqlで自己結合を使うのではなく、テーブル分割で正規化

Bigquery、セキュリティポリシーを作る前に、audit logで利用動向を調べる

機密データの暗号化

Cloud Key Management Service